15. 文件和序列化¶
文件是长久保存信息的一种数据信息集合。
文件常用操作有:
打开/关闭: 文件一旦打开,需要关闭操作
读写内容: 对文件写入内容或者读取内容
查找: 查找文件内某一内容
15.1. 文件的打开¶
文件打开方式通常两种,分别是:
open函数
with语句
15.1.1. open函数¶
open函数负责打开文件,带有很多参数
第一个参数: 必须有,文件的路径和名称
mode:第二个参数, 表明文件用什么方式打开
r:以只读方式打开
w:写方式打开,会覆盖以前的内容
x:创建方式打开,如文件已经存在,报错
a:append方式,以追加的方式对文件内容进行写入
b: binary方式,二进制方式写入
t: 文本方式打开
+: 可读写
文件的打开参考一下案例:
# 打开文件,用写的方式
# r表示后面字符串内容不需要转义
# f称之为文件句柄, 以后代表这个文件,用它来进行读写
f = open(r"test01.txt", 'w')
# 文件打开后必须关闭
f.close()
# 此案例说明,以写方式打开文件,默认是如果没有文件,则创建
15.1.2. with语句¶
with
语句使用的技术是一种成为上下文管理协议的技术(ContextManagementProtocal),
它可以自动判断文件的作用域,自动关闭不再使用的打开的文件句柄, 这样妈妈再也不用担心你忘了
关闭打开后的文件了。
# with语句案例
with open(r"test01.txt", 'r') as f:
pass
# 下面语句块开始对文件f进行操作
# 在本模块中不需要在使用close关闭文件f
15.2. 文件的读取¶
文件读取分别为:
readline: 按行读取
list: 读取成列表
read: 按字符读取
15.2.1. readline¶
readline
读取一行,知道文件末尾则返回空。
下面案例是一个实际使用的代码段:
# with案例
with open(r'test01.txt', 'r') as f:
# 按行读取内容
strline = f.readline()
# 此结构保证能够完整读取文件知道结束
while strline:
print(strline)
strline = f.readline()
输出结果是:
假若他日相逢
我将何以贺你
以沉默
以眼泪
15.2.2. list¶
list
负责把文件内的所有内容按行填充一个列表,然后返回。
对文件的打开,可以使用列表list
直接打开,这样自动把文件的每一行当做列表的元素进行填充,得到一个
列表:
# list能用打开的文件作为参数,把文件内每一行内容作为一个元素
with open(r'test01.txt', 'r') as f:
# 以打开的文件f作为参数,创建列表
l = list(f)
for line in l:
print(line)
运行结果如下:
假若他日相逢
我将何以贺你
以沉默
以眼泪
15.2.3. read¶
按字符读取文件内容,参数可以是数字,表示一次读取几个字符,也可以没有,表示读到结尾。
# read是按字符读取文件内容
# 允许输入参数决定读取几个字符,如果没有制定,从当前位置读取到结尾
# 否则,从当前位置读取指定个数字符
with open(r'test01.txt', 'r') as f:
strChar = f.read(1)
print(len(strChar))
print(strChar)
运行结果如下:
1
假
15.2.4. seek¶
读取指针指的是当前文件读到的地方,如果不指定读取指针,默认是文件的开始的地方。
每次读取,文件都回向后移动相应的长度。 我们也可以通过函数来手动移动文件的读取指针。
seek
函数的功能是移动文件的读取位置,也叫读取指针。
seek(offset, whence)
是函数的签名,此处:
from的取值范围:
0:从文件头开始偏移
1:从文件当前位置开始偏移
2:从文件末尾开始偏移
移动的单位是字节(byte)
注意一个汉字由若干个字节构成
返回文件指针移动后的新的绝地地址(从文件开始出的偏移量)
下面代码是文件指针偏移的案例:
# seek案例
# 打开文件后,从第5个字节出开始读取
# 打开读写指针在0处, 即文件的开头
with open(r'test01.txt', 'r') as f:
# seek移动单位是字节
f.seek(6, 0)
strChar = f.read()
print(strChar)
文件运行结果如下:
他日相逢
我将何以贺你
以沉默
以眼泪
关于文件读取的一个小案例:
# 关于读取文件的练习
# 打开文件,三个字符一组读出内容,然后显示在屏幕上
# 每读一次,休息一秒钟
# 让程序暂停,可以使用time下的sleep函数
import time
with open(r'test01.txt', 'r') as f:
# read参数的单位是字符,可以理解成一个汉字就是一个字符
strChar = f.read(3)
while strChar:
print(strChar)
# sleep参数单位是秒
time.sleep(1)
strChar = f.read(3)
运行结果如下,请仔细理解结果为什么会这样? 解释以下运行结果,为什么不是每行三个字符
假若他
日相逢
我将
何以贺
你
以
沉默
以眼泪
15.2.5. tell¶
seek
用来移动读写指针, tell
用来显示读写指针的当前位置。
# tell函数: 用来显示文件读写指针的当前位置
with open(r'test01.txt', 'r') as f:
strChar = f.read(3)
pos = f.tell()
while strChar:
print(pos)
print(strChar)
strChar = f.read(3)
pos = f.tell()
以下结果说明tell
的返回数字的单位是byte
, read
是以字符为单位的。
9
假若他
18
日相逢
25
我将
34
何以贺
41
你
以
48
沉默
57
以眼泪
15.3. 文件的写操作¶
文件的写操作主要把内容以某种形式写入文件。
write(str)
: 把字符串写入文件writeline(str)
: 把字符串按行写入文件两者区别是:
write
函数参数只能是字符串writerline
参数可以是字符串,也可以是字符序列
write
具体案例参看下面代码:
# write 案例
# 1. 向文件追加一句诗
# a代表追加方式打开
with open(r'test01.txt', 'a') as f:
# 注意字符串内含有换行符
f.write("生活不仅有眼前的苟且, \n 还有远方的枸杞")
15.3.1. writelines¶
负责向文件写入多行。
# 可以直接写入行, 用writelines
# writelines表示写入很多行,参数可以是list格式
# a代表追加方式打开
with open(r'test01.txt', 'a') as f:
# 注意字符串内含有换行符
f.writelines("生活不仅有眼前的苟且")
f.writelines("还有远方的枸杞")
writelines
写入列表的案例如下:
l = ["I", "love", "wangxiaojing"]
# a代表追加方式打开
with open(r'test01.txt', 'w') as f:
# 注意字符串内含有换行符
f.writelines(l)
15.4. rb
和 r
模式的区别¶
我们使用处理二进制文件时,需要用如下方法
binfile=open(filepath,'rb') # 读二进制文件
binfile=open(filepath,'wb') # 写二进制文件
那么和binfile=open(filepath,’r’)的结果到底有何不同呢?
不同之处有两个地方:
使用
r
的时候如果碰到0x1A
,就会视为文件结束,这就是EOF
。使用rb
则不存在这个问题。 即如果你用二进制写入再用文本读出的话,如果其中存在0X1A
,就只会读出文件的一部分。使用rb
的时候会一直读到文件末尾。对于字符串
x='abc\ndef'
,我们可用len(x
)得到它的长度为7,\n
我们称之为换行符,实际上是0X0A
。当我们用w
即文本方式写的时候,在windows
平台上会自动将0X0A
变成两个字符0X0D
,0X0A
,即文件长度实际上变成8.。 当用r
文本方式读取时,又自动的转换成原来的换行符。 如果换成wb
二进制方式来写的话,则会保持一个字符不变,读取时也是原样读取。 所以如果用文本方式写入,用二进制方式读取的话,就要考虑这多出的一个字节了。0X0D
又称回车符。 linux下不会变。因为linux只使用0X0A
来表示换行。
15.5. 持久化-pickle¶
序列化(持久化,落地):把程序运行中的信息保存在磁盘上的过程叫序列化,也可以俗称落地
反序列化:序列号的逆过程
pickle: python提供的序列化模块
pickle.dump:
pickle
模块中执行序列化功能的函数pickle.load:
pickle
模块中执行反序列化功能的模块
序列化的案例参看以下代码, 需要注意的是,序列化打开文件的方式必须时候用二进制方式写文件打开:
# 序列化案例
import pickle
age = 19
with open(r'test01.txt', 'wb') as f:
# 把变量age序列化写入到文件f
pickle.dump(age, f)
反序列化使用load
,把序列化保存的内容读入程序, 反序列化文件的打开方式需要是二进制的读方式打开:
# 反序列化案例
import pickle
with open(r'test01.txt', 'rb') as f:
# 从文件f中读入变量age
age = pickle.load(f)
print(age)
下面是pickle
读写复杂变量类型的案例:
# 序列化案例
import pickle
a = [19, 'liudana', "i love wangxiaojing", [185, 76]]
with open(r'test01.txt', 'wb') as f:
pickle.dump(a, f)
相应的读案例如下:
with open(r'test01.txt', 'rb') as f:
a = pickle.load(f)
print(a)
操作结果如下:
[19, 'liudana', 'i love wangxiaojing', [185, 76]]
15.6. 持久化-shelve¶
shelve
也是持久化对象的一个python
工具。
它的使用方法类似字典,用键值对的方式保存数据,存取方式跟字典也很类似。
使用方式一般是打开关闭文件,然后对打开的文件就可以用类似字典的方式存取。
# 使用shelve创建文件并使用
import shelve
# 打开文件
# shv相当于一个字典
shv = shelve.open(r'shv.db')
shv['one'] = 1
shv['two'] = 2
shv['three'] = 3
shv.close()
通过以上案例发现,shelve
自动创建的不仅仅是一个shv.db
文件,还包括其他格式文件:
```python
# shelve读取案例
shv = shelve.open(r'shv.db')
try:
print(shv['one'])
print(shv['threee'])
except Exception as e:
print("烦死了")
finally:
shv.close()
15.6.1. shelve特性¶
不支持多个应用并行写入: 为了解决这个问题,
open
的时候可以使用flag=r
shelve
正常情况下不会等待持久化对象进行任何修改: 解决方法是强制写回,writeback=True
# shelve 之只读打开 import shelve shv = shelve.open(r'shv.db', flag='r') try: k1 = shv['one'] print(k1) finally: shv.close()
另一个案例:
import shelve
shv = shelve.open(r'shv.db')
try:
shv['one'] = {"eins":1, "zwei":2, "drei":3}
finally:
shv.close()
shv = shelve.open(r'shv.db')
try:
one = shv['one']
print(one)
finally:
shv.close()
shelve
有时会忘记写回,需要使用强制写回
shv = shelve.open(r'shv.db')
try:
k1 = shv['one']
print(k1)
# 此时,一旦shelve关闭,则内容还是存在于内存中,没有写回数据库
k1["eins"] =100
finally:
shv.close()
上面代码相应的读取代码如下:
shv = shelve.open(r'shv.db')
try:
k1 = shv['one']
print(k1)
finally:
shv.close()
上面代码读取结果如下:
{'eins': 1, 'zwei': 2, 'drei': 3}
{'eins': 1, 'zwei': 2, 'drei': 3}
如果改为强制写回,则不会造成丢失的问题:
# shelve忘记写回,需要使用强制写回
shv = shelve.open(r'shv.db', writeback=True)
try:
k1 = shv['one']
print(k1)
# 此时,一旦shelve关闭,则内容还是存在于内存中,没有写回数据库
k1["eins"] =100
finally:
shv.close()
相应的读取代码如下:
shv = shelve.open(r'shv.db')
try:
k1 = shv['one']
print(k1)
finally:
shv.close()
结果如下:
{'eins': 1, 'zwei': 2, 'drei': 3}
{'eins': 100, 'zwei': 2, 'drei': 3}
shelve
也可以使用with
管理上下文环境:
with shelve.open(r'shv.db', writeback=True) as shv:
k1 = shv['one']
print(k1)
# 此时,一旦shelve关闭,则内容还是存在于内存中,没有写回数据库
k1["eins"] =1000
with shelve.open(r'shv.db') as shv:
print(shv['one'])
运行结果如下:
{'eins': 100, 'zwei': 2, 'drei': 3}
{'eins': 1000, 'zwei': 2, 'drei': 3}